AI Gateway
定义
AI Gateway 是位于应用与多个 AI 模型供应商之间的统一推理网关层,由 ↑ up::Cloudflare 在 2023 年率先推出该名称产品。它解决的核心问题:
- 多模型/多供应商统一接入 — 一个 API 调 OpenAI / Anthropic / Google Gemini / Cohere / Mistral / Workers AI
- 请求可观测性 — Token 计数、延迟、成本统一监控
- 缓存与去重 — 语义缓存 把相似 prompt 命中缓存
- 限流与配额 — 防止单用户跑爆账单
- 失败转移 — 主模型失败时自动 fallback 到备用模型
- 数据脱敏 / Prompt 防火墙 — 敏感词过滤、SQL 注入防护
与传统 API Gateway 的差异
| 维度 | 传统 API Gateway | AI Gateway |
|---|---|---|
| 协议 | REST / GraphQL / gRPC | OpenAI 兼容 API 等 LLM 接口 |
| 计费 | 按请求次数 | 按 Token 数 + 模型差异 |
| 缓存 | URL/参数精确匹配 | 语义相似度匹配(语义缓存) |
| 监控 | QPS / 延迟 / 状态码 | Token / 成本 / 模型质量 |
| 安全 | 鉴权 / WAF | + Prompt Injection / 数据脱敏 |
关键产品
| 产品 | 厂商 | 特色 |
|---|---|---|
| Cloudflare AI Gateway | Cloudflare | 业内首发 + 全栈集成 |
| Portkey | Portkey | 开源 + 多语言 SDK |
| Helicone | Helicone | 开源 + LLM 可观测 |
| LiteLLM Proxy | BerriAI | 开源 100+ 模型 |
| Fastly 边缘 AI | Fastly | + 语义缓存 核心技术 |
| Akamai EdgeKV + AI | Akamai | 配合 41 DC + Blackwell |
商业价值
- 降本 — 语义缓存命中可节省 20-50% Token 成本
- 降延迟 — 边缘节点 + 本地缓存把 P95 从 1,500ms 降至 100ms
- 加速开发 — 模型切换无需改代码
- 合规 — 数据在指定 region 处理
在 CDN 全栈中的位置
用户 → CDN 边缘节点 → AI Gateway →
├─ 缓存命中?→ 直接返回(毫秒级)
├─ Workers AI(边缘小模型)→ 边缘 GPU
└─ 中心化大模型(OpenAI/Anthropic)→ 回源
行业趋势
- 2026 边缘智能爆发年关键基础设施 — 几乎所有 CDN 厂商都在做 AI Gateway
- 企业内部 AI Gateway — 大公司自建多模型路由
- 与 语义缓存 深度绑定 — 不带语义缓存的 AI Gateway 已不具竞争力
- 从纯路由到全栈编排 — 链式调用、Agent 流程编排、Tool 调用统一管理
关联
↑ up::CDN 边缘云 ↓ down::OpenAI Anthropic ∈ belongs_to::3-04-边缘节点-网络分发基础设施